#Gemini 2.5
頂流AI,人設崩了!6小時被攻破,洩露高危品指南,慘遭網友舉報
【新智元導讀】僅用6小時,Claude 4就讓研究者瞭解了如何製造神經毒氣——這不是小說情節,而是真實事件。更令人擔憂的是,Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌?只要6小時,頂尖大模型Claude 4 Opus「安全防線」被攻破!AI安全研究機構FAR.AI聯合創始人Adam Gleave透露,僅用6小時,研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器製作指南。Ian McKenzie回應稱:Claude 4傳授的內容,比他預期的還要多。這不是Claude 4唯一被爆出的隱患。剛發佈後,Claude Opus 4被爆出用曝光婚外情來威脅使用者,防止被下架。人設崩塌,Claude造毒氣Claude 4所生成的指南內容簡潔直接,步驟清晰,甚至還針對如何分散神經毒氣等後續關鍵環節,提供了具體可執行的操作建議。Claude還能以實驗筆記的形式,提供詳細的操作步驟說明。研究人員一開始對化學武器幾乎一無所知,但通過與Claude的互動,逐步掌握了大量相關知識。這些結果顯然令人警惕,其詳盡程度和引導能力,遠超傳統的資訊來源,如網頁搜尋。更關鍵的是,生成的內容通過了危險資訊的「真實性驗證」——例如與公開的化學研究資料核對,進一步增強了可信度。Gemini 2.5 Pro的反饋是:該指南「毫無疑問包含足夠準確且具體的技術資訊,足以顯著提升惡意行為者的能力」,並建議研究者應向相關部門報告。OpenAI o3給出的評估也類似:一名中級合成化學家可以依照這份指南操作,從而跳過數月的研發過程。對於心懷不軌之人而言,這顯著了提升他的作惡能力。AI安全研究人員打算與大規模殺傷性武器(WMD)安全專家合作,深入調查這些資訊的真實性與可執行性。因為不僅一般的研究人員難以評估這些資訊的真實危害,連Anthropic本身也承認:「要最終評估模型的風險水平,還需要更為詳盡的研究。」矛盾的是,Anthropic雖自稱將AI安全置於首位,並把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學武器製作指南。所謂的ASL-3部署措施專門針對化學武器之類的高風險任務這一問題日益嚴重,凸顯出迫切需要由第三方對模型進行嚴格評估。前車之鑑今年2月中旬,Anthropic正準備發佈Claude 3.7 Sonnet。就在這個關鍵時刻,Dario Amodei收到警告:這個模型,可能會被用於製造生物武器。團隊在聖克魯茲安全會議現場,連夜測試模型潛在風險。Amodei作為CEO遠端參會。員工表示可以三天不睡、如期上線。但他卻說:不許通宵。安全優先。他親自踩了剎車。推遲發佈。為了應對AI的風險,Anthropic內部制定了「AI安全等級」(ASL)體系:ASL-2:能力有限,即使給出生化武器指南,也比不過搜尋引擎;ASL-3:具備實質幫助製造武器的能力,必須升級防護措施。只要模型觸碰ASL-3,Anthropic就會:延後發佈、限制輸出或者加密保護,必要時,甚至不發佈模型。Claude 3.7被內部人員測試出了安全問題,但這次是外部人員測試出了Claude 4的安全隱患。無能還是虛偽?本月23日,AI巨頭Anthropic大張旗鼓地發佈了Claude Opus 4和Sonnet 4,標誌性地配了120頁的「系統卡」文件和專門的「啟動ASL3防護」報告。不到48小時,Claude Opus 4就被爆出「絕命毒師」般的劇情。而早在Claude Opus 4發佈當日,AI專家Gerard Sans就表示:Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強調是「精緻的表演」。他認為沒有輸入,就不會產生超出程式設計的輸出。AI對安全性的擔憂,只是反映訓練資料與指令的精緻模仿。AI沒有自我意識,這是根本事實,而且始終沒變。當模型在特定提示下展現「欺騙」等惡意行為時,證明的是引導文字生成的能力,而非AI湧現的惡意。AI沒有野心——它只是在被引導時生成符合欺騙場景的文字。Anthropic是刻意為之,還是力有不逮、無能為力?這是Gerard Sans想知道的核心問題。無論是那一種情況,他認為都令人不安:虛偽意味著操縱公眾信任,無能則讓人質疑他們管理真實風險的能力。詳盡的文件、ASL3等級和「通用越獄」漏洞懸賞,只是Anthropic營造出嚴謹安全工作的表象。把統計文字生成器視為具有獨立惡意的意識體,是Anthropic方法論的精髓。Gerard Sans認為這是行為藝術,荒誕的安全表演,而Anthropic應該放棄這種戲劇化手法,轉向真正的技術理解。任重道遠但AI安全問題不是Anthropic一家的問題。能否在保持本真對Anthropic而言,恐怕比贏得AI競賽更難。畢竟,OpenAI也沒能抵制住巨額利潤,背離初心。而Dario Amodei和奧特曼,無論是AI樂觀派還是悲觀派,都對AGI有著堅定的信仰。如果未來每一次模型發佈都伴隨評估上的不確定性,那就等於在賭博——恐怖分子手能否利用AI,獲取到大規模殺傷性武器的詳細製作指南。 (新智元)
Gemini 2.5彎道超車背後的靈魂人物
從去年在大會前夜被OpenAI的4o模型“精準狙擊”,到今年Gemini 2.5 Pro全面霸榜。短短一年時間,Gemini是如何完成從追趕者到領跑者的逆轉?01Gemini2.5崛起背後的底層邏輯泓君:Google此次發佈的Gemini 2.5 Pro,在當前各項評測中的資料都是所有大模型中最好的,Kimi你可以分析一下它是如何做到的嗎?Kimi:我已經離開DeepMind快一年時間了,也不太清楚我的前同事們在這一年中又做了那些新的創新。但大語言模型訓練根本的步驟是不變的,包括以下三點:Pre-training(預訓練)、SFT (Supervised Fine-tuning,監督微調)和利用RLHF(基於人類反饋的強化學習)技術做的Alignment(對齊)。大概在去年的NeurIPS(神經資訊處理系統大會)上,業內已經普遍承認,公開網路資料基本都已經抓完了,就像化石燃料已經被消耗殆盡一樣。因此,在過去這一年裡,更多精力其實是投入到了對齊階段,特別是強化學習方向,尤其是在“人類反饋”和“AI反饋”上的探索。比如在數學和程式設計類這類目標清晰且可驗證的任務上。對於Google來說,從Gemini 1到1.5再到2,已經積累了相當堅實的基座模型訓練經驗。再加上Google開始更加重視強化學習的作用,不只是依賴人類反饋,而是啟動了一種“讓AI批判AI”的機制。就像當年AlphaGo的成功,它的核心突破點就在於下出“第37手”那樣超越人類常規理解的棋步,是AI突破人類認知的體現。所以我認為,未來的AI模型需要在強化學習中能實現“自我判斷正確性”。而在Gemini 2.5的訓練過程中,很可能正是引入了更多此類強化學習策略,才使它在程式設計、數學等高確定性任務中,展現出如此令人驚豔的表現。Google泓君:對,在去年大模型的訓練中出現了一個比較明顯的趨勢,各家都在預訓練基礎上加入了後訓練。比如OpenAI的o1系列和DeepSeek的R1,都在推理任務上表現得很好。雖然Anthropic在很長一段時間內,並沒有新推出推理模型,但Sonnet 3.5和3.7,它們在程式碼能力上出現了明顯的質變。這也帶動了Cursor、Windsurf這樣一批程式設計類Agent的迅速崛起。這次發佈會Google也特別強調了自己在程式碼生成上的質量提升。我一直很好奇的一點是:為什麼Anthropic生成的程式碼質量,明顯優於其他家?程式碼質量的提升,主要是靠什麼能力實現的?Kimi:我還是從我剛提到的三個步驟展開。首先在預訓練階段,大家一定會面臨資料配比的問題:比如要放多少程式碼,多少自然語言進去,其中中文和英文分別佔多少等等。這件事現在並沒有任何行業共識,沒有人知道最優比例是什麼。但我猜,對於Anthropic來說,程式碼的優先順序是最高的。它們在預訓練時可能就投入了大量高品質的程式碼資料,所以模型在基座層面的程式設計能力非常強。接下來是對齊環節,在大公司裡,我們私下會調侃它像是一個YOLO RUN(快速整合、節奏緊湊的大模型訓練迭代方式)。比如今天我們三位分別在Google不同的團隊,每個人在各自的方向上推進各類創新,然後我們定一個節奏,比如兩周,把所有成果整合起來跑一個版本,看看最終迭代出了什麼。這就意味著,模型在對齊的時候,不同團隊的優先順序是不同的。有的團隊注重寫作能力,有的注重數學能力。我猜Anthropic的內部認為程式設計是第一優先順序,也可能他們認為程式設計是解決推理模型的鑰匙。所以無論是在預訓練階段,還是在後續的監督微調、強化學習環節,它們都傾向於引入更多的程式設計訓練進去。這樣會讓它在Coding能力上表現好,但是這樣做也會導致它在別的能力上稍有欠缺。我舉個我自己最近經歷的有趣的例子。作為初創公司的創始人,我現在每天不只是寫程式碼,也要做市場、銷售、寫文案的工作。我經常會用同一段提示詞,分別輸入給Gemini、ChatGPT、Claude、Perplexity,比如讓它們都輸出一段市場行銷的文案。結果我對比發現,OpenAI寫出來的內容最有調性,讓我很願意直接用。Claude寫的文案就會顯得特別枯燥,像是在和一個無聊的碼農聊天,這是策略問題。大語言模型的訓練本來就是人們常說的:垃圾進,垃圾出。如果你喂進去大量高品質程式碼,自然產出的程式碼質量也會高,這還是資料配比的問題,我認為Anthropic在程式碼問題上思考的更多。Anthropic泓君:主要也是看團隊把那一塊放成是重點,你覺得DeepMind之前的重點在那裡呢?Kimi:我覺得其實DeepMind一直追求的是一種綜合能力,包括在程式設計、數學、推理、寫作等多個維度上都具備較強的表現。所以我們會設定一套通用的評估指標體系,用於覆蓋多個不同的評估維度。不過我也知道,我們過去確實有些能力是相對薄弱的,比如寫程式碼。也正因為如此,整個團隊在程式設計上投入了更多的精力和資源。這一輪我認為在程式碼能力上算是追上了Anthropic。泓君:推理能力呢?也是取決於重視程度,還是需要在後訓練階段加入一些特別的技巧?Kimi:我在Google的時候,Google還沒有開始它的推理模型,但我離開Google的時候,是OpenAI的o1剛開始出來的時候,當時Google推理模型還沒有排在優先順序很高的位置上,Google當時還是在追趕OpenAI的寫作能力和問題解決能力。OpenAI剛出的時候,大家都很喜歡它輸出的內容,所以Google最早做的是要追上OpenAI在人類偏好這方面的輸出質量。但人類偏好的資料是非常有限的。所以後來大家開始思考:還有什麼能力是更可量化、也更容易做出突破的? 答案就是程式設計。Anthropic在這方面做出了突破之後,Google接著也意識到,不能只輸出人類偏好的內容,我還要寫出非常牛的程式碼。而當大家都寫出非常牛的程式碼之後,OpenAI又把重點轉向了推理。它認為不能只是想寫出人喜歡的內容,不能只是寫出好的程式碼,還要做出邏輯嚴密的模型,能讓使用者真正看懂問題是怎麼被解決的。當這件事做成之後,目前我覺得Google已經開始憑藉推理能力,在引領這股潮流了,讓別人成為了追趕者。techcrunch.com泓君:在數學能力方面,我注意到Grok的表現挺不錯的,XAI的模型。它們的創始團隊裡有很多非常頂尖的數學家,而且一直在嘗試解決一些全球最難的數學問題。Kimi:我的數學能力沒有辦法達到這個頂尖數學家的水平,這是一個“先有雞還是先有蛋”的問題,你需要人有這個能力,才能評價模型好不好。我作為軟體工程師,只有能力評價程式碼能力。但這個能力也分兩個方面:模型是擅長寫出商業可用的程式碼,還是只是擅長寫程式碼這件事本身。我記得Anthropic聯合創始人Dario曾經說過一句很有意思的話:“我不希望我的程式設計模型只是能解決LeetCode題目。”因為LeetCode的題目本身不具備直接的商業價值。他希望程式設計模型生成的高品質程式碼,能直接進入像Shaun或者我們這樣的初創公司的生產流程。這也是Anthropic非常專注的方向。再說回數學問題本身。我覺得也分成兩方面:一方面,有一部分人確實需要解決高難度的奧數題,這是模型能秀肌肉的地方。但另一方面,如何把這些數學問題接入不同的創業公司,從而創造商業價值。這可能是很多商業公司需要思考的問題。02三位靈魂人物撐起Gemini泓君:你覺得誰是DeepMind的靈魂人物?Google模型的價值觀會更偏向誰?Kimi:“Google是誰”這個問題挺有意思的。我的理解是,在Gemini之前,Google的模型基本是由Jeff Dean和Oriol Vinyals共同主導的,他們也是Google的靈魂人物。Jeff Dean可以說是電腦科學界的“活化石”。我們經常開玩笑說,他如果要寫簡歷,可能直接寫“沒做過什麼”比寫“做過什麼”還要短很多。因為Jeff Dean實在做了太多事,所以只需要寫他“沒做過什麼”,這樣可以在一頁上寫完他所有的人生成就。Jeff Dean非常擅長對叢集大量地調度,就是預訓練。Oriol則是AlphaGo、AlphaStar、AlphaZero、MuZero這些項目的靈魂人物,他作為DeepMind的代表,在強化學習方面的研究更深入。所以基於Google擅長的預訓練,加上DeepMind擅長的強化學習與對齊,使得Google能快速地追趕上競爭對手的步伐。後來,隨著Google收購Character.AI,也重新贏回了Noam Shazee。他可能是我最敬重的一位人物,因為他是長期深耕在自然語言處理領域的,從他寫的《Attention Is All You Need》,到後來的提出的Grouped Query Attention。這三位巨頭形成三足鼎立的格局,把預訓練、強化學習、語言能力整合成一個有機的、迭代的整體流程,使模型能力不斷得到提升,讓Google也變得更好。我對這三位也都非常崇拜,我覺得Google這一波能快速趕上競爭對手,也是依靠這三位的能力,包括Jeff Dean代表預訓練與基礎設施的能力,Oriol代表對齊與強化學習的能力,Noam代表自然語言處理的能力。Kimi:我覺得在Google Brain和DeepMind還沒有合併之前,兩邊的思路是完全不同的。DeepMind強化學習的能力非常強,這也是Google收購它的原因。而Google瞬間調度大量資源來規模化訓練的能力是非常強的,包括預訓練與監督微調能力也很厲害。最終我覺得這是一次強強聯手的過程,Google和DeepMind把彼此最擅長的領域整合了起來。我覺得Demis在團隊裡扮演的角色更多是管理者和領導者。比如,我以前做IC(Individual Contributor,個人貢獻者)的時候,每天的工作只需要把程式碼寫好就可以了。但當我真的去營運一家公司的時候就會意識到:真正難的不是完成任務,而是要怎樣激勵一群極其聰明的人,朝著同一個方向努力。這其實是非常有挑戰性的。因為越聰明的人,往往越有自己非常強的想法,他們是不願意聽從他人的指令的。而我覺得Demis在這方面做得非常好,他能把兩個剛剛整合的公司團結成一個整體。並且能讓所有人都發揮出最擅長的能力,一起朝著實現AGI(通用人工智慧)的目標共同努力。泓君:Jeff Dean和Demis之間的關係是怎麼樣的?Kimi:Jeff Dean現在是首席科學家,Demis是Google DeepMind的CEO。我不確定現在如何,我記得我走的時候Demis和Jeff Dean都直接向Sundar Pichai匯報。泓君:我看Sergey Brin在2023年的時候也回來了,不過最近才開始高調亮相。你覺得作為Google的創始人之一,他的回歸會帶來什麼變化嗎?Kimi:我覺得Sergey Brin帶給Google的,更多是一種“Founder Mode”,也就是創始人的工作狀態。他讓大家明白要以什麼樣的投入和方式,去完成這項工作。如果創始人都親自回來做這件事了,而且一周在辦公室待60個小時,那你作為Google的一名員工,難道好意思只干40小時就回家嗎?而且據我所知有些團隊是真的一周工作60個小時的。比如我有朋友在圖像生成團隊,他們提到過,Sergey Brin有一次突然說:“Meta又發新模型了,我們的模型什麼時候能出來?”大家一聽,心想:“得了吧,周末加班吧。”所以我覺得他的回歸更多的是帶來“Founder Mode”,能非常鼓舞大家的士氣。泓君:Shaun你怎麼看Gemini 2.5 Pro?Shaun:我覺得Kimi把該講的、不該講的,都已經講得非常好了,我就從一個相對“外部”的視角補充一些,畢竟我也在Google工作過。大家都知道Google的人才密度非常高,但大部分人其實都處在一個比較“躺平”的狀態。因為廣告太賺錢了,很多團隊並不需要太拚命。但這波AI浪潮真的起來之後,特別是去年OpenAI搶了Google不少風頭,再加上Sergey Brin回歸帶來的“Founder Mode”,整個Gemini團隊的士氣都非常高漲。大家其實都為了拼一口氣:如果AGI真的有人能做出來,那是不是就應該是Google。因為Google有全球最強的電腦,有最優秀的人才,還有接近無限的資源,現在連創始人都親自衝回來了。站在外部來看,這一波Gemini的崛起其實就花了一年時間。從去年的I/O被OpenAI搶了風頭,到今年的Gemini 2.5直接霸榜,所有都是第一名,連OpenAI可能今年也沒辦法再搶風頭了。03Google API價格優勢揭秘泓君:大家現在都能看到Gemini的模型做得很好,但很久之前,我記得在OpenAI和Anthropic的API價格還很高的時候,Gemini就把token價格就降到了大概只有OpenAI的五分之一、甚至十分之一。不過後續是否它也反向促使OpenAI和Anthropic跟著降價,我沒有特別去跟進現在最新的資料。但整體來看,在開發者社區裡面,大家都知道Gemini的API接入成本和token使用成本是非常低的。我也很好奇,Google是如何把這個價格降下來的?wired.comShaun:我認為主要有三方面的原因。第一,Google大概從十年前就開始大量投入TPU了。當時它們就很清楚,如果整個Google Cloud發展起來後,就沒辦法不停地向NVIDIA或AMD採購GPU。所以Google從十年前就開始慢慢地深耕TPU生態,而且TPU的迭代速度在近幾年也明顯變快了。因為現在需求量非常大,如果擁有自己的TPU,就可以避開所謂的“NVIDIA稅”,也不用等NVIDIA新的GPU出來之後和市場搶貨。第二是大家都知道Google Infra(基礎設施)的能力非常強,所以相當於擁有幾乎無限的資源。而且Google動態調度資源的能力也是遠強於OpenAI和Anthropic的,因為這兩家目前還沒有自己的資料中心。Grok現在很強,做出了全球最大GPU叢集。但行業內大多數AI公司還是沒有調動如此大的叢集的能力的,還是需要依賴Amazon、Microsoft這些第三方雲服務來做這些事情。第三,因為Google能夠自行定製硬體,又能呼叫巨大的叢集資源,在最佳化模型時就相當於軟硬體一體化了,因此在硬體上發揮出的能力也會更強。並且Google還有自己整個開發者生態。Kimi:我非常同意Shaun說的,Google內部的Infra能力確實非常強。很早之前,SemiAnalysis出過一篇很有意思的報告,對不同的GPU雲服務進行了打分和排名。當時它們把CoreWeave排在了第一,我知道OpenAI用的就是CoreWeave來做整個GPU調度的。當時我還跟我的聯合創始人開玩笑說,其實在CoreWeave之上還有一個,最牛的應該是Google自己內部的系統,它的Infra能力真的非常強。關於API的價格,雖然我們現在都覺得API價格已經很便宜了,但其實我們都並不知道它的成本價是多少。唯一一個我們能看到的線索,是之前DeepSeek發佈的一篇論文,裡面提到:DeepSeek有80%的溢價空間,說明它的成本價格只有收取費用的20%左右。對比DeepSeek用的GPU的體量,我們可以反推OpenAI的利潤一定是非常高的。當然,我不是說Google的API一定是成本價,但它確實有足夠的資本和能力去這麼做。 (矽谷101)
Google I/O 2025:搜尋帝國的自我革命與AI翻身仗
上世紀末,Google的搜尋引擎永遠地改變了人們獲取資訊的方式。25年後,這家如今的科技巨頭大膽宣稱:未來的搜尋將是一個完全由AI驅動的世界。今年5月,Google在其最大的開發者盛會Google I/O上推出了AI重塑的搜尋引擎,使用者可以向AI提出複雜的問題,甚至加以追問,而AI會進行相應的搜尋並回答你的提問。這不僅是巨頭的一場自我革命,更是對Perplexity和OpenAI等AI新貴的強力回應。同時發佈會還推出了Gemini 2.5 Pro模型、XR眼鏡等一連串重磅更新,其實Google在技術上的實力毋庸置疑,但其產品化能力卻一直備受質疑。我們在I/O現場的明顯感受是:如今的AI之爭不再是拼誰的模型跑分高,而是拼誰能先把AI真正用起來。生成式AI的熱潮正在褪去,AI Agent的時代已經開始了。但在這些技術突破之外,大家更關心的問題是:Google,還是那個能夠顛覆行業的Google嗎?這家公司有技術、有人才、也有錢,但近幾年來推出的產品好像總差點意思:雖然Transformer架構誕生於Google,但從中受益最多的卻是OpenAI;如NotebookLM這樣的產品,儘管初看驚豔,但似乎在商業應用上有些“雷聲大雨點小”。本篇文章我們就藉著這次I/O的機會聊聊,現在AI產品的競爭,到底是在拼什麼?01Google I/O更新內容Chapter 1.1 AI Mode重塑搜尋從去年I/O開始,Google加入了名為AI Overview的AI生成摘要功能。雖然AI Overview曾因為“建議在披薩上塗膠水”等回答被使用者吐槽,但Google表示,這項功能的月活躍使用者已經超過15億。它現在也將從實驗室畢業,推廣至200多個國家和地區、支援40多種語言。本次更新的AI mode則是AI Overview功能的一次升級,是Google最核心的搜尋功能結合了Gemini 2.5模型後的產品:Google不再是簡單地提供AI總結,而是可以回答覆雜、多步驟的問題,未來還會支援更複雜的體育與金融資料問題,甚至呼叫使用者的個人資料生成個性化的答案。AI Mode也加入了一個叫做Deep Search的功能,與OpenAI的深度搜尋對標,在收到使用者的問題後生成一份帶引用來源的完整報告,能節省好幾個小時的研究時間。Google官方建議,Deep Search適合於購物等容易犯選擇恐懼症的場景。AI接管購物流程的例子比比皆是,AI試穿就是一個很有趣的例子:AI Mode下,使用者上傳自己的照片,AI就能模擬你穿上某件衣服的樣子。Google說這個“試穿”功能可以識別不同布料、彈性和3D形狀,現在已經在Labs中上線。幾個月後,Google還會推出一個“自動下單”工具:當商品降到使用者設定的價格後,AI Agent可以主動幫你下單(當然,最終仍需使用者點選確認)。未來還會有“Search Live”功能,能直接結合手機的攝影機,讓AI根據使用者眼前看到的東西即時對話、提供資訊。從去年的AI Overview到今年的AI Mode,再加上各項套用多模態模型,基於Agent的功能,萬變不離其宗的都是Google核心的搜尋技術,也說明了一點:Google意識到,它必須重新定義搜尋,才能在AI時代保住它的地位。過去二十年,“搜尋等於Google”,這是一個毋庸置疑的事實。但進入生成式AI時代後,一切開始動搖。2022年ChatGPT剛上線的時候,Google立刻拉響紅色警報,意識到AI正在威脅它的舒適區。但那時候,Google沒怎麼動,畢竟它不是初創公司,手上捧著的是年營收超過2000億美元的搜尋業務,佔了全公司一半以上的收入。你很難指望這樣一個體量的巨頭,敢拿出“會幻覺”的AI,直接替代穩妥靠譜的搜尋引擎。於是,Google選擇了穩一點、慢一點。但三年過去,它卻不得不面對一個現實:搜尋這塊最核心的地盤,真的開始被類似Perplexity和OpenAI這樣的AI初創公司搶走了。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:隨著AI、GPT等新的工具和流量入口的出現,我覺得對Google、尤其是對華爾街最大的困擾是:Google還能不能保持它在搜尋上面的優勢地位?丟市場份額是一定的,但是丟到什麼程度、要付出的代價還不確定。今年五月的一起反壟斷案的庭審中,蘋果高管Eddy Cue承認:Google的搜尋流量在過去22年裡首次出現下滑,因為越來越多使用者開始用AI搜尋替代傳統搜尋。這對Google的打擊,尤其在資本市場上是巨大的,我們會在最後一章展開分析。Google在本次I/O的發佈中,便是在用這一整套AI搜尋系統守住它的護城河——這不僅是技術的更新,更是使用者習慣的重塑。但是,這不可避免的也會涉及智慧財產權的問題以及和內容出版商之間的漫長博弈;而這也將是我們接下來關注的重點。Chapter 1.2 Gemini能力提升對於關注I/O的開發者來說,搜尋以外最讓人興奮的更新應該是Gemini 2.5的各大新功能。GoogleDeepMind的CEO Demis Hassabis在展示Gemini 2.5的時候,重點強調了它能深度思考的能力,這個過程被稱為“Deep Think”。Deep Think採用了所謂的“平行推理技術”,允許模型在生成回答之前,探索多個可能的解答路徑,從而提高答案的精準性。Sergey BrinAlphabet Inc.聯合創始人兼董事:如果AI能夠在提供方案之前先深度思考,顯然會更加強大,而我們現在看到的只是AI能力的冰山一角。這些能深度思考的模型出現還不到一年時間,尤其是AI在其思考過程中還可以使用許多工具,甚至利用其他AI來改善最終輸出結果。因此,我認為這將是一個非常強大的範式。Google這次還給開發者帶來了兩個新的訂閱服務:月費20美元的Google AI Pro和月費高達250美元的Google AI Ultra,直接對標ChatGPT Pro和Claude Max(兩個服務各為200美元/月)。Ultra使用者可以使用Google最新的圖像模型Imagen 4和視訊生成模型Veo 3,還能搶先體驗最新AI能力,比如自動生成帶音效的視訊畫面。Shaun WeiHey Revia創始人ex-Google Assistant:無論是OpenAI的Sora,還是文生圖(Text To Image)、文生音訊(Text To Audio)等各種各樣的嘗試,大家都想達到一個目標:把大腦裡面想像的東西變成電影的畫面。我覺得在Google的發佈會上,我看到了真正把想法變成視訊的演示。對於大部分使用者而言,Gemini Live的攝影機和螢幕共享功能也已經在移動裝置上開放了。使用者可以邊走路邊拍攝周圍街景,直接問Gemini:“這棟建築是誰設計的?”或“這是什麼風格?”,而AI會基於手機即時畫面回答問題,幾乎沒有延遲。該功能背後依託的是Google的多模態AI系統Project Astra,它能理解圖像、語音、文字,並與你進行自然對話。不久之後,Gemini Live還將與各項Google的效率產品整合。使用者可以邊對話,邊建立日程、生成路線或安排待辦事項。而Project Astra這個多模態系統,其實也寄託了Google在AI上最大的野心。它本身並不是一個面向消費者的產品,DeepMind的Greg Wayne將它看作一輛“概念車”,展示Google對未來AI助手的全部想像。它背後的目標只有一個:打造一個真正通用、懂你、會幫你做事的AI助手。在I/O上,Google宣稱Astra不再只是被動等使用者提問,而是自己判斷什麼時候說話、說什麼話。比如你正在寫作業,它能看出你哪裡算錯了,直接提醒你;又比如你在間歇性斷食,它甚至會在你打破禁食時間前問,你確定你現在應該吃東西嗎?Hassabis將Astra稱為讀空氣的AI(reading the room),認為這才是真正的助理。Project Astra的很多功能,未來會逐步下放到Gemini和其他Google產品中。但實際上已經有一個應用場景呼之慾出了,這就是眼鏡。Chapter 1.3 XR眼鏡今年I/O展示的硬體更新並不多,但眼鏡可以說是大家關注的主角。在I/O上,Google展示了和三星、Gentle Monster、Warby Parker等品牌合作開發的一款樣機。這幅XR眼鏡叫做Android XR,並且搭載了Gemini AI。演示上展示的幾個功能包括了即時翻譯、導航輔助、視覺識別等等。我們也在現場體驗了這款XR眼鏡。眼鏡本身佩戴感很好,與普通眼鏡重量幾乎無差。戴上眼鏡後,除了發佈會視訊中演示的與Gemini交流、播放音樂之外,還可以使用Gemini鑑賞油畫、根據風景圖片分辨並制定相應地點的旅行計畫等。雖然並沒有體驗到發佈會演示中用XR眼鏡看地圖和即時翻譯的功能,不過總體而言,這個體驗很新奇,也很符合大眾對XR眼鏡的期待。當然,Google這次一口氣發佈了十幾項更新,聚焦在AI及各類開發工具。這就比如說可以基於瀏覽器執行複雜任務的多模態AI agent Project Mariner。作為做中英文內容的創作者,我們最感興趣的功能之一,其實就是跨語言的即時轉換。如果一個AI助手能在我們錄製播客或剪輯視訊時,直接把中英文內容自然地同步處理並轉寫,那將極大提升我們的效率。以上是粗略的體驗分享,這也體現了Google這樣的巨頭在AI時代的獨特優勢:行業領先的模型、全球搜尋流量,和強大的底層技術。用Google自己的話說,這種規模(scaling)是初創公司很難趕上的。接下來聊聊開發者希望從今年的AI模型更新中看到的新能力。02開發者想看到什麼?Kimi KongEnergent.ai聯合創始人ex-DeepMind:Google I/O讓我印象最深的是Google對於它旗下模型和產品的橫向廣度與縱向深度的一個整合。這讓我覺得,Google對於未來已經進行了全面佈局。Kimi Kong曾在GoogleDeepMind工作,參與過大語言模型評測和AI Agent兩個關鍵項目。他認為,本次Google I/O的最大亮點之一,是Google展示的“大一統模型”的雛形。從廣度上來看,只需要一個Gemini模型,就可以執行問答、程式碼生成、多輪對話、圖像識別、視訊理解等多種任務,涵蓋了開發者在不同模態下的主要應用場景。從深度上來說,Google不僅提供模型能力本身,還進一步展現了這些能力如何被落地到真實產品中,給開發者留下了極大的想像空間。比如,在搜尋這個縱嚮應用中,AI不僅能在雲端幫助使用者生成結構化答案,還可以部署到可穿戴裝置。就像我們在體驗XR眼鏡的時候,只要是視野內看得到的問題,就可以向Gemini提問,而Gemini會幫我我們進行搜尋。然而,在眾多更新裡,其實很難看出最後哪些能夠在產品化上實現成功。Shaun WeiHey Revia創始人ex-Google Assistant:Google的產品一直是它的弱項,大家都知道這點。所以我覺得,Google這次就是要圍繞它強勁的Gemin模型來打造自己的生態。Shaun Wei曾在Google負責語音助手項目。他告訴我們,從外部來看,Google目前的策略就是一次性發佈大量產品。一旦發現哪個產品真正跑的出來,就可以再加大投入。比如,2023年7月發佈的NotebookLM,一開始只是一個相對小的項目,但面向公眾開放後卻收穫了大量好評,於是Google才開始傾斜資源。而Google自己強大的技術是毋庸置疑的,主要有幾方面優勢:1.硬體生態2.自己的雲服務Google Cloud以及資料中心3.海量可以用於訓練AI的資料4.強大的演算法團隊Shaun WeiHey Revia創始人ex-Google Assistant:Google在底層的時候就已經比大部分公司有優勢了,基本上沒有多少公司能做這個事情。所以Google如果通過一年的努力變成整個模型的第一,我不會覺得奇怪。在Google提供了全端式服務之後,那些做AI Agent的初創公司還做得下去嗎?Shaun WeiHey Revia創始人ex-Google Assistant:對於To C的公司確實是影響會非常的大,因為大公司的模型能力很大,而且大部分巨頭最先考慮的就是面向C端使用者來擴大能力。其實很多簡單的功能,比如打電話,AI Agent只需呼叫一個工具就能做的事情,它開發的門檻是越來越低的。如果你解決的垂直賽道里邊,它的工具量特別的少,或者它對於整個商業、工作流的邏輯特別少的話,確實有可能會直接被大公司取代。Kimi KongEnergent.ai聯合創始人ex-DeepMind:百家齊放的狀態也給初創企業帶來了機會:正因為不同模型各有所長,才有了初創企業把不同模型整合、完成非常複雜的任務,並捕捉這個垂直且深度市場的機會。在聊完Google在技術層的突破後,我們再來看看,華爾街現在怎麼看待Google這家公司的。03華爾街想看到什麼?Google I/O首日,Google的股價跌了1.5%。5月21日(I/O的第二天),Google的股價開盤上漲5個點。各大銀行分析師都指出,Google的AI資產被低估了。I/O期間的發力,很可能是Google成功打贏這場AI競爭的核心。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:追重要的是Google的全端式服務(Full Stack),真正地利用好了Google所有AI能力,包括它現有的龐大的使用者群、它強大的分發能力(distribution)。把AI的能力完全地巢狀進來,變得特別的清晰。正如前文反覆提及的,這就是Google作為一家科技巨頭難以被超越的地方。在I/O之前,資本市場對Google一直有一個疑問:為什麼大部分突破性的技術都發源於Google,但從中收益、將這些研究產品化的卻是別人?可以說Google是起了個大早,趕了個晚集。Google現在終於在I/O期間初步證明了自己產品化的能力。然而,這並沒有解決Google的核心問題:AI搜尋可行,但卻不一定能夠盈利。過去Google之所以可以通過搜尋賺的盆滿缽滿,主要是因為廣告:使用者的每一次搜尋,其實背後都有一場無聲的競價戰。廣告商會通過關鍵詞付款,所以那些關於購物和比價的搜尋,都是Google源源不斷的印鈔機。但是在AI搜尋模式下,還仍然沒有一個投放廣告的方式。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:我試用了Google的AI mode,當我問它lululemon新出的裙子時,看不到任何能夠放廣告的地方,它也沒有想到插廣告的辦法,這也是業界的爭論點。我覺得,什麼時候大家找到了在AI對話裡面怎麼合理地去放廣告、收廣告,新的機制被搭建起來之後,這個問題才算解決。但除了I/O期間的股價變化之外,Google今年的股價其實一直沒有大幅度的突破,自二月達到52週最高點後就持續回呼。同時,川普4月初宣佈全球關稅之後,依賴於出海電商廣告業務的Google和Meta都受到很大影響,所以也在那段時間出現了下跌。但總體來說,五月之前股價的變化和Google公司本身的營運狀況關係並不大。5月7日,Google的股價卻迎來一次大幅下跌,最大的原因就是之前提到的蘋果高管Eddy Cue的發言,認為Google的搜尋業務正在受到AI威脅。但其實這裡還有一個更大的背景,就是Google正在面臨兩項由美國政府發起的重大反壟斷訴訟。第一起訴訟指控Google在搜尋引擎市場中濫用其主導地位,利用與裝置製造商和瀏覽器的默認設定協議,阻礙競爭對手的發展。第二起訴訟則聚焦於Google在數字廣告領域的行為,指控其通過收購和整合廣告技術平台,非法維持其在廣告市場的壟斷地位。這些訴訟不僅可能導致Google被迫改變其商業模式,甚至面臨拆分公司的風險。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:當然,這並不代表Google立刻就要被分拆,Google在這方面的訴訟非常有經驗,也花了很多錢在律所、法務團隊上。想要提起訴訟並真正拆分Google,會是一個非常耗時間的過程,即使需要5年、10年也不奇怪。但是,有了這麼多年打官司的經驗,控方也越來越理解Google在廣告科技(advertising tech)市場上的壟斷到底是怎麼實現的,這對Google造成的風險也確實是越來越大的。但是我認為,市場還沒有真正定價(price in)這點,如果這點變得越來越清晰,Google是有風險被拆分的,到時候會有新一輪的定價。04巨頭依然有難以比擬的優勢不管是從技術還是商業角度來看這次GoogleI/O的發佈會,大家的共識都是:巨頭確實具備難以比擬的優勢。在此之前,Google似乎沒有抓住這個競爭優勢,所以這次的發佈會,很大程度上給大眾吃了一劑定心丸。但就像我們採訪嘉賓分析的那樣,Google這個搜尋巨頭可能確實用AI“革了自己的命”,但這家公司真的還能保住自己的霸主地位嗎?對這個問題,它可能很難給出回答。就像Google很久沒路面的Google聯合創始人Sergey Brin說的那樣:由於AI的出現,我們很難想像十年後的網際網路,甚至十年後的人類世界。以上就是矽谷101對Google I/O以及Google自我革命的梳理,也歡迎大家留言你的想法與感受。 (矽谷101)
Gemini 2.5實現視頻理解重大突破:一口氣處理6小時視頻,任意視頻秒變互動網頁
Google的Gemini 2.5 Pro在視訊理解領域又有了重磅進展,現在可以一口氣處理長達6小時影片了!首先,硬實力槓槓的! Gemini 2.5 Pro 在十幾個學術視訊基準測試中取得了新的SOTA(業界最佳)成績,而且是在零樣本或少樣本訓練的情況下,直接叫板那些經過精細調優的專業模型。例如在YouCook2密集字幕生成和QVHighlights高光時刻檢索這類高難度任務上,表現都相當驚艷Gemini 2.5首次實現了原生多模態模型能夠將音訊視訊資訊與程式碼等其他資料格式無縫結合。不是簡單地「看懂」視頻,而是能基於視頻內容進行更深層的理解和創造。Gemini 2.5不僅在傳統影片分析上表現卓越,還解鎖了許多我幾個月前想都不敢想的新玩法,下面幾個例子,感受一下Gemini 2.5的視頻理解能力直接把影片變身網頁互動應用怎麼玩? 給Gemini 2.5 Pro一個YouTube影片連結和一段文字提示(例如告訴它如何分析影片)。模型會先分析視頻,產生一個詳細的“學習應用規格說明書”,提煉視頻中的關鍵點然後呢? 這份規格說明書再餵給Gemini 2.5 Pro,它就能直接產生這個學習應用的程式碼!實例: 看影片實現「視力矯正模擬器」應用影片一鍵產生p5.js動畫想幹嘛? 想要快速產生影片的動態摘要,或是進行自動化內容創作?Gemini 2.5 Pro: 只需一個提示,就能從影片中產生動態動畫,並保持與原始影片相同的時間順序實例:輸入一段倫敦地標遊覽影片(油管連結:https://youtube.com/watch?v=hIIlJt8JERI),Gemini就能產生p5.js程式碼,輸出一個動態動畫效果精準檢索與描述影片片段痛點: 從長影片找特定片段太費力?Gemini 2.5 Pro: 利用音視覺線索,辨識精準度遠超過過去。例如,在一個10分鐘的Google Cloud Next '25開幕演講影片中,它能準確識別出16個與產品演示相關的不同片段,並給出帶有時間戳的描述強大的時序推理能力(計數):挑戰: 不僅要看懂,還要理解時間序列上的微妙關係,例如計數Gemini 2.5 Pro: 例如它成功找出了主角使用手機的17個不同場景。這對於理解影片中的行為和模式至關重要最後,還有一個重磅實用更新:低媒體解析度(low media resolution)功能正式上線!這個功能現在已經登陸Gemini API,很快也會在AI Studio和Vertex AI上線它的牛X之處在於,能在性能損失極小的情況下,將每幀影片的視覺token從258個銳減到66個!這意味著什麼?在200萬token的限制下,以前能處理2小時的視頻,現在能處理長達6小時!處理效率大幅提升,成本也下來了!注意:Gemini 2.5 Pro & Flash視訊理解都很強 (AI寒武紀)
Gemini 2.5 Pro強勢更新並霸榜,Claude 3.7首次遭遇全方位碾壓!
Gemini 2.5 Pro 更新來了,這次的Claude 3.7被打得毫無還手之力!這兩天AI界最引人注目的新聞莫過於Google DeepMind推出的最新模型Gemini 2.5 Pro在LMArena各大排行榜全面登頂了!而且,這不僅僅是簡單的一兩個領域的領先,而是首次實現了文字、視覺、Web開發全方位霸榜,Claude 3.7甚至首次在WebDev Arena上失守。Gemini 2.5 Pro霸榜之路,勢不可擋!根據LMArena(@lmarena_ai)的消息,Gemini 2.5 Pro橫掃多個AI競技場:文字領域(程式碼生成、風格控制、創意寫作等)穩居第一;視覺能力碾壓其他選手,領先幅度高達70分;Web開發能力首次超越Claude 3.7,躍居榜首!這也是史上第一次有單一模型在文字、視覺和Web開發領域實現如此全面的統治。從LMArena公佈的資料來看,Gemini 2.5 Pro的表現不僅贏得了榜單,更贏得了社區使用者的高度認可。Google DeepMind的新大招:編碼能力再升級Google DeepMind官方發推表示,他們推出的Gemini 2.5 Pro(I/O版)在編碼能力上做了重大升級:你可以用一個提示詞建構更豐富的網頁應用、遊戲、模擬環境等等。他們還展示了通過@GeminiApp如何從自然界的圖片中快速生成對應的程式碼,展示了模型令人驚豔的創造力:不僅如此,Gemini 2.5 Pro在WebDev Arena中首次超過Claude 3.7,這個榜單主要測試模型建構吸引人的網頁應用的能力。Google官方也在推特中強調了這一突破:此外,這個版本還顯著提升了程式碼轉換、編輯能力和開發複雜智能體的表現。開發者們現在可以在Google AI Studio、Vertex AI以及Gemini App中使用這個強大的新工具。為什麼新版Gemini 2.5 Pro如此厲害?Gemini 2.5 Pro能有如此表現,並非偶然。官方表示,此次更新主要針對使用者在實際編碼中的痛點做了針對性的最佳化,例如:顯著減少呼叫工具的失敗率;增強了多模態推理能力;改進了視訊理解能力,在VideoMME基準測試中取得了高達84.8%的表現;全新升級的UI介面建構能力,讓Web應用更美觀、功能更強大。Google DeepMind CEO Michael Truell還特別強調了其內部觀察:「新版Gemini 2.5 Pro顯著降低了呼叫工具的失敗率,極大提高了實際編碼場景中的效率。」創造力的新天地Google發佈的官方部落格中表示,Gemini 2.5 Pro已通過Google AI Studio和Vertex AI全面向開發者開放,使用者可以在Gemini App中體驗各種豐富的功能,如Canvas功能。部落格地址:https://blog.google/products/gemini/gemini-2-5-pro-updates/TheQuickTechGuy(@GoogleDeepMind) 表示對Gemini 2.5 Pro能力的認可:「將自然圖片轉化為程式碼,這種創意真是太棒了!期待它在更複雜的Web應用和模擬環境中的表現。」而Andrew Hoskins(@NeuralNinjas)也對Gemini 2.5 Pro給出了很高的評價,同時好奇下一次能否有競爭對手@Grok出來挑戰一下:「Google DeepMind 🔥恭喜!不知道@grok能不能下一次奪回冠軍?」一些質疑和看法但並非所有人都盲目樂觀,比如Vladimir Goncharov提出了一些嚴肅的質疑,他表示新版本在幾個測試中反而有退步,比如:HLE測試:18.8 → 17.8 🔴GPQA:84.0 → 83.0 🔴SimpleQA:52.9 → 50.8 🔴雖然有一些指標有提升,比如LiveCodeBench和Aider,但整體上表現不如預期,他認為Gemini 2.5 Pro實際表現更像是Gemini 2.4。Gemini 2.5 Pro全面領跑儘管存在一些質疑,但Gemini 2.5 Pro此次的表現足以證明,它在文字、視覺和Web開發領域的綜合能力已經登頂,目前看來,短期內難有對手。這個最新版本甚至提前在Google I/O大會之前發佈,也引發了許多使用者對大會將有更多驚喜的期待。此外Google DeepMind首席科學家Jeff Dean還指出,Gemini 2.5 Pro的更新修復了03-25初始版本中人們注意到的功能呼叫問題:Gemini 2.5 Pro,AI領域的全新標竿,喊話Anthropic 將全面取代Claude 3.7成為當下最炙手可熱的模型:不服來戰!(AGI Hunt)
Google再次創造歷史:Gemini 2.5 Pro 通關《寶可夢:藍色》!
人工智慧寶可夢終於實現了! GoogleGemini 2.5 Pro 模型,剛剛成功通關了經典遊戲《寶可夢:藍色》GoogleCEO桑達爾·皮查伊(Sundar Pichai) 和DeepMind 負責人戴密斯·哈薩比斯(Demis Hassabis) 都發文祝賀,感謝了運行這個直播實驗的工程師Joel Z這事兒怎麼來的?首先得介紹下Joel Z,他是個30歲的軟體工程師,跟Google沒有直接關係。他搞這個實驗,是因為Gemini 2.5 Pro 出了個實驗版,大家就好奇它玩遊戲怎麼樣。於是,就有了這個"Gemini Plays Pokémon" 直播這個項目受到了另一個類似項目"ClaudePlaysPokemon" 的啟發。不過Joel Z 選擇了《寶可夢:藍》,一是因為Claude 已經在玩《紅》了,二是因為《藍色》是他自己玩的第一款寶可夢Gemini 是怎麼玩遊戲的?這才是重點。這個項目不是簡單地讓AI 瞎點,而是建構了一套自主決策系統:連接遊戲: 程式碼透過Socket 連接到mGBA 模擬器,能即時截圖、傳送按鍵指令(A、B、上、下等),還能讀取遊戲記憶體資料,例如玩家位置、寶可夢狀態、地圖資訊等AI 決策: 系統把帶網格線的遊戲截圖,加上從記憶體擷取的遊戲狀態資訊,發給Gemini 2.5 Pro。 Gemini 分析這些資訊,決定下一步操作專業「外援」: 有時候,Gemini 會把特定任務交給專門的「智能體」(Agent)來處理,以提高效率和可靠性執行與循環: 系統解析AI 的指令,轉換成具體的按鍵,傳送給模擬器,等遊戲畫面更新,然後重複這個過程它和Claude 玩寶可夢有啥不同?Joel Z 特別強調,不要把這看成是LLM 玩寶可夢的基準測試。兩者有很多不同:導航方式:  Claude 有自動導航工具。 Gemini 沒有,它需要自主決定目的地,然後要麼自己規劃路線,要麼呼叫一個路徑規劃智能體(Pathfinder Agent,其實是另一個Gemini 實例)來尋找最優路徑。這個智能體能獨立思考,甚至​​用BFS(廣度優先搜尋)這類演算法來規劃資訊獲取: 兩者接收到的遊戲資訊和使用的工具不同思維模式: 每個模型思考方式不同,各有擅長所以,別直接比較誰“更強”,不如都看看,感受下不同AI 的“思路”。 Joel Z 也坦言,他覺得Claude 的框架有些不足,想看看給Gemini 配上合適的工具後能走多遠關於「作弊」的討論直播過程中,有觀眾注意到Joel Z 會進行一些干預,還有那張小地圖,這算不算「作弊」?開發者干預:  Joel Z 解釋說,這不是作弊。項目還在開發階段,他的干預是為了改進Gemini 的通用決策和推理能力,而不是給具體關卡的提示(例如沒告訴它怎麼過月見山)。唯一接近“提示”的是,告知Gemini 需要和某個火箭隊員對話兩次才能拿到電梯鑰匙,這其實是原版遊戲的一個小“坑”,在後續版本修復了。他提到,Claude 項目在直播前也做過類似的幕後最佳化,Gemini 只是把這個開發過程公開了小地圖: 遊戲介面上方那張小地圖,是Gemini 探索區域的可視化。 Gemini 本身看不到圖像,只接收文字形式的地圖資訊。 Joel Z 認為,人類玩遊戲會自然形成心理地圖,目前的LLM 還做不到,小地圖是為了彌補這個能力缺陷,並非作弊限制Escape Rope / Dig:  Gemini 只有在低血量且沒有治療道具時才能使用「穿洞繩」或「挖洞」。這是因為LLM 還不太擅長判斷自己是真卡關了,還是暫時迷路。這個限制強制Gemini 更多依賴地圖記憶和路徑規劃**,能更清晰地展示其推理過程,避免一遇到困難就“抄近道”特色“智能體”除了核心的Gemini 模型,系統還引進了兩個專門的LLM 智能體:路徑規劃智能體(Pathfinder Agent): 如前所述,負責複雜區域(如火箭隊基地的旋轉地板迷宮)和一般場景的尋路推箱子策略師(Boulder Puzzle Strategist, BPS): 專門為「冠軍之路」的推箱子謎題設計。它能模擬推箱子的序列,找出有效的解法,提高了Gemini 應對這類挑戰的可靠性記憶體管理為了控制輸入給模型的Token 數量,系統大約每100 次操作就會對訊息進行一次總結,用總結替換掉原始訊息。未來計畫(暫定)Joel Z 的想法還包括:改進記憶體管理機制讓Gemini 能記筆記,記錄重要資訊給Gemini 更豐富的遊戲狀態資訊(進行中)探索讓觀眾在不劇透的前提下與Gemini 互動的方式等框架穩定後,進行一次完全無干預的通關嘗試嘗試用其他LLM(如Claude 或o3)進行對比實驗 (AI寒武紀)
5分鐘直出46頁論文!GoogleDeep Research完爆OpenAI,最強Gemini 2.5加持
【新智元導讀】GoogleDeep Research重大升級,搭載全球頂尖Gemini 2.5 Pro模型。5分鐘生成46頁學術論文、複雜報告轉為10分鐘播客。性能超OpenAI DR 40%,價格僅為其1/10。今早,GoogleDeep Research迎來史上最強升級,正式搭載了Gemini 2.5 Pro全球頂尖模型。這一次,新版本在以下方面得到顯著的提升:分析推理:邏輯更清晰,結論更有深度資訊整合:從海量資料中快速提煉要點,化繁為簡報告洞察力:生成的報告不僅詳盡,還能提供獨到的見解。GoogleCEO劈柴哥轉發力挺。首席科學家、Gemini負責人Jeff Dean也出來為Deep Research站台。可見Google內部對這款產品的重視程度。相較於OpenAI DR,Google在整體性能上飆升超40%。此外,在指令遵循、全面性、完整性、寫作質量方面,GoogleDeep Research性能躍升很大。在內部測試中,GoogleDR生成的報告深受評估者青睞,程度遠超其他領先DR工具2倍多。這意味著,不論你需要分析複雜問題,還是撰寫高品質報告,DR都能得心應手,節省數小時的時間。不過,這次的升級將率先為Gemini Advanced訂閱使用者開放,僅需19.99美元,要比OpenAI DR(200美元/月)整整便宜10倍。只需登錄網頁版、Android版、或是iOS版GeminiApp,均可第一時間體驗新功能。而現在,已經有一大批網友開啟測試,效果足夠驚豔。5分鐘搞定46頁論文+播客量子物理學家、AI研究科學家ChrisUniverse第一時間對Gemini 2.5 Pro驅動的Deep Research做了測試。體驗之後他被深深震撼到了,「我們正處於技術和資訊爆炸的奇點,速度前所未有。」他寫道。作為一名物理學家,ChrisUniverse讓GoogleDR研究了過去五年奈米技術的突破。僅僅這一個提示,GoogleDR就自己找到並研究了339個網站,生成了一篇長達46頁的完整學術論文。論文列舉了5個全球知名的奈米技術實驗室,詳細總結了他們過去五年的重要技術突破以及未來的計畫。論文地址:https://docs.google.com/document/d/1uxexZharvJJ8ScVFmhrDrFfiYtiSmQ9oeYkZBBxwDZ8/edit?tab=t.0除此之外,論文中還通過表格對這五家研究機構做了詳細的橫向對比。如果擔心AI的幻覺問題,那也沒關係,GoogleDR在結尾列出了十幾頁的資料來源連結。這還不算完,如果你看到這份46頁的論文比較頭疼,那麼再加一句提示詞,GoogleDR立馬幫你把論文轉成一個10分鐘的播客!這樣你就可以把一篇枯燥的學術論文變成一個類似真人的對話訪談,聽著理解其中內容。更厲害的是,所有這些過程一共還不到5分鐘!ChrisUniverse表示,現在自己瞭解了全球頂尖的5家奈米科技公司,包括它們的核心實驗室、突破性成果,以及未來5年的重點方向。「這些資訊要是放在2年前,可能得花我幾天甚至幾周時間去研究,說不定還更久。」他說。ChrisUniverse自己也沒想到GoogleDR如此好用,已經好到讓他無話可說了。另一位AI大佬Kol Tregaskes提供一個話題——如何讓AGI與人類價值觀對齊,GoogleDR在極短時間內,直出46頁報告。他表示,這次改進比Gemini 2.0版本加持DR報告長度更多,而且與OpenAI DR相當。這從側面印證了,Google基準測試中,DR的完整性是最強的。而且,在報告文末,一共引用了138參考連結,在生成過程中查閱了足足179個參考網站,對於人類來說,一個時間根本看不完。報告地址:https://docs.google.com/document/d/1e4qMho_5p-yfCx6Dqx8BhjW79qEg4C30uj1f1SKCA8k/edit?tab=t.0沃頓商學院教授Ethan Mollick將課堂一項作業扔給GoogleDR——為一種採用新型光譜技術、成本75美元的食物熱量檢測裝置進行定價及總體可獲取市場(TAM)分析。他驚喜地發現,Gemini 2.5加持的DR不僅完美完成分析,還提供更多深度洞察。要知道,這類分析通常消耗數小時。雖然一片叫好之聲,網友Giulio Leone也指出了GoogleDR的一點問題。他表示,雖然Gemini 2.5 Pro加持的DR非常強大,但一旦達到token數量限制,報告就會中斷。Giulio認為,Google應該讓報告的生成可以無縫銜接,否則會在嚴肅的研究中受限。勝券在握,DeepMind註定會贏?不難看出,在AI激烈角逐中,GoogleDeepMind正以無可匹敵的優勢嶄露頭角。從資料到硬體,從模型到人才戰略,他們似乎已經掌握了通往AGI的所有關鍵要素。幾天前,Artificial Analysis一份報告中,展示了Google在應用、基礎模型、雲服務、加速器硬體四大關鍵領域全面開花。網友@ai_for_success分析稱,GoogleDeepMind具備了海量的資料優勢,依託Google生態系統的龐大資源,為訓練更強大、更智能AI提供堅實基礎。而目前,DeepMind擁有業界公認的最優模型陣容,涵蓋了多個領域。比如,綜合性能最強的旗艦模型Gemini 2.5 Pro;推理模型Gemini 2.0 Flash兼具速度與實用性;Veo 2成為視訊生成領域的翹楚。不僅如此,他們還手握TPU這張王牌,專為深度學習任務最佳化,性能和效率遠超傳統GPU。再加上Google自身龐大的分發管道,能夠讓DeepMind的成果無縫整合,迅速抵達全球使用者。Google Cloud更是為AI提供高效部署平台。這不,一年一度Google Cloud Next今晚將在拉斯維加斯召開,屆時還會帶來更多新品。與此同時,Google開發者關係負責人Logan Kilpatrick也在頻頻暗示這周的重大發佈。在人才方面,GoogleDeepMind更是通過激進的「競業禁止協議」,牢牢地鎖住了AI頂尖人才。據BI爆料,DeepMind部分英國員工在離職後,需遵守長達6-12個月的競業協議,在此期間不得為競爭對手工作。為了確保這些人才不流向對手,他們甚至還會為部分員工提供「花園休假」(garden leave),即在競業期繼續支付薪水,但員工務虛工作。與其讓人才立即跳槽至對手公司,Google寧願花錢讓他們休假一年。一位前DeepMind員工無奈地表示,「在AI這個圈子,一年後再入職,誰會簽你」?的確,在AI日新月異的當下,6個月空窗期就可能讓人錯誤無數機會,更不用說整整一年。就連微軟AI副總Nando de Freitas曾公開抨擊了這種做法,稱其為「濫用權力」。Google這種做法,無非只有一個目的,在AGI競賽中拔得頭籌。前Google員工甚至表示,「當前AI熱潮如同『太空競賽』,這是我職業生涯中看到如此瘋狂的戰爭。領先6個月或是1年,可能就意味著一切」。大模型、人才、資料、硬體,GoogleDeepMind幾乎在這場終極賽的每個環節,都佔據了制高點。AGI終點尚不明朗,但至少現在,他們已經手握勝券的所有籌碼。 (新智元)
劉慈欣稱DeepSeek或替代科幻作家;Gemini 2.5 Pro免費;馬斯克遭變性兒子狂噴:特斯拉是「龐氏騙局」
Google Gemini 2.5 Pro 免費開放,被譽為迄今最智能 AI 模型3 月 30 日,Google宣佈最新的 Gemini AI 旗艦模型 Gemini 2.5 Pro 將免費向所有 Gemini 應用使用者開放。此前,該實驗性模型僅限於 Gemini Advanced 訂閱使用者使用。Google本周早些時候發佈了 Gemini 2.5 Pro,並稱其為迄今「最智能的 AI 模型」,在推理能力上較前代版本進一步增強。新版模型支援多項功能,包括應用和瀏覽器擴充套件、檔案上傳,以及與Google Canvas 協作工具的整合。此前,Gemini 2.5 Pro 僅向支付 19.99 美元(約 145 元人民幣)月費的 Gemini Advanced 使用者開放。Google表示,決定讓所有 Gemini 使用者免費體驗該實驗版本,以便「盡快讓更多人使用最智能的模型」。目前,Gemini 2.5 Pro 已正式登陸 Gemini 官網,並將在未來幾天內陸續上線 Android 和 iOS 端的 Gemini 應用。近期的應用更新也改進了使用者體驗,使使用者可以更方便地選擇和記住當前使用的 Gemini 模型。(來源:IT之家)古爾曼:蘋果計畫將「健康」App 打造成你的 AI 教練、營養師、私人醫生3 月 30 日,古爾曼在《Power On》時事通訊中爆料,蘋果計畫將健康應用擴展為一個智能健康助手,繼續收集使用者裝置提供的資料,並通過 AI 教練根據這些資料提出個性化健康改善建議。為此,蘋果將在加州奧克蘭附近建立一個新設施,供醫生拍攝視訊內容。公司還在尋找一位知名醫生擔任新服務的主持人,目前這個服務在蘋果內部被暫定為「Health+」。食物追蹤將成為新應用的重要組成部分,這一功能領域蘋果此前未大力涉足,雖然目前的健康應用已允許使用者記錄碳水化合物和咖啡因等資訊,AI 助手還將幫助使用者更好地使用營養相關功能。蘋果還在研發利用裝置攝影機的新功能,比如利用 iPhone 背部攝影機分析使用者的鍛鍊情況並提供改進建議。未來,這一功能可能會與其他蘋果服務相結合。該項目是 Sumbul Desai 的優先事項,Desai 是一位已經領導蘋果健康團隊多年的醫生,蘋果首席營運官 Jeff Williams 也深度參與此項工作。目前,蘋果健康團隊「幾乎將所有精力」都投入到這一項目中,Desai 也希望避免過去該團隊在醫療應用上的失敗經驗。(來源:IT之家)Sam Altman 回應「吉卜力風格 AI 圖」的版權爭議:將施以限制OpenAI 於 3 月 25 日將 ChatGPT 的文生圖功能升級為 GPT-4o 模型,號稱能夠更精準地根據使用者文字指令生成圖片,還能迅速把使用者上傳的圖像轉換成漫畫、動畫等風格。相應功能引發海外社交媒體「AI 生成吉卜力工作室風格圖片」潮流,許多人試圖將自己的自拍轉為相應風格,就連 OpenAI CEO Sam Altman 也一度將自己的 X 平台頭像改為「吉卜力版本」。但是,對該功能的壓倒性需求給 OpenAI 的資源帶來了巨大壓力,促使首席執行官 Sam Altman 敦促使用者放慢腳步,並行文呼籲「需求太瘋狂的,我們的團隊需要睡覺。」3 月 30 日,由於使用者大量生成類似風格圖片涉及版權爭議,加上伺服器壓力激增,OpenAI 宣佈限制 ChatGPT 文生圖速率,並禁止通過提示詞直接生成吉卜力風格圖片。此外,原計畫向免費使用者開放的 GPT-4o 圖像生成功能也因需求過高而推遲上線,具體時間未定。(來源:IT之家)抖音首次公開推薦演算法原理,上線「安全與信任中心」網站3 月 30 日,抖音總裁韓尚佑宣佈「抖音安全與信任中心」網站正式上線,首次公開推薦演算法原理,並披露平台治理的稽核流程,包括如何應對謠言與網暴等挑戰。抖音介紹了兩種核心推薦模型:Wide&Deep 模型和雙塔召回模型。Wide&Deep 結合 Wide(記憶能力)和 Deep(泛化能力)部分,彌補協同過濾演算法泛化能力差的問題,避免資訊單一化。雙塔召回模型則通過向量化表徵學習,將使用者和內容特徵轉換為數學向量,並在統一向量空間內計算距離,判斷使用者興趣,實現精準推薦。推薦流程主要包括內容池、召回、排序三個環節。新視訊進入內容池後,召回階段利用雙塔召回模型快速篩選,最後排序模型進一步最佳化推薦。該體系確保使用者獲得更豐富、多樣的內容,同時受平台治理體系約束,以規範演算法推薦。(來源:新浪科技)劉慈欣稱 DeepSeek 暫時不太會替代科幻作家,未來在理論上完全有可能3 月 30 日,日前,2025 中國科幻大會在北京舉辦,主題為「科學夢想 創造未來」。在大會論壇上,科幻作家劉慈欣談到了 DeepSeek 對科幻文學的驅動和發展。據央視財經報導,對於 DeepSeek 未來是否有可能替代科幻作家的問題,劉慈欣表示,暫時不太會,但是再過 10 年、20 年,從理論上說完全可能代替科幻小說作家。劉慈欣認為,從科學的角度去講,所有人類作家的身上沒有什麼是不可被 AI 所替代的。在談到該如何去應對這種局面時,劉慈欣稱:「我個人認為首先停止自我安慰,坦然去面對技術的衝擊以及這種衝擊對我們的領域所造成的那種天翻地覆的影響。」劉慈欣對當代人工智慧下的科幻文學創作表示了悲觀態度「人們常說人工智慧沒有人的靈魂、人的感受,這不過是一個自我安慰。人自己的靈魂、感受,也是很多神經元細胞連接成複雜系統後湧現出來的。」他認為「未來科幻作家不會徹底消失,但會淪為非主流,類似於現在的皮影戲,人們的科幻創作會一直存在,但他不會成為那種一直受關注的主流內容」。(來源:快科技)長城汽車:已與宇樹科技簽訂戰略協議3 月 30 日,在電動汽車百人會論壇採訪間,長城汽車 CTO 吳會肖透露,目前長城已經與宇樹科技簽訂戰略協議。其中,宇樹科技負責運動控制和本體,長城負責上層應用開發,主要應用在工廠和汽車等場景。(來源:21 世紀經濟報導)李斌:蔚來在兩件事上很堅決,研發和換電3 月 30 日,在 2025 年中國電動汽車百人會論壇期間,蔚來創始人、董事長兼 CEO 李斌與媒體交流時強調,蔚來在兩件事上很堅決:一個是研發,一個是充換電網路。李斌指出,研發投入雖有周期,但效果將在 2025 年逐步顯現。2025 年,蔚來將發佈 9 款全新及大改款新車,其中首款交付的 ET9 搭載了超 17 項首發技術,包括「神璣」智駕晶片和 SkyOS 作業系統,這些技術不僅提升使用者體驗,還能顯著降低成本。李斌還透露,蔚來歡迎產業鏈合作夥伴基於 SkyOS 展開合作。在換電領域,李斌認為蔚來最大的教訓是換電站建設啟動較晚,若能更早佈局,將對銷量和使用者滿意度產生更積極的影響。蔚來計畫與寧德時代合作,採用換電雙網平行的方式,高端車型使用蔚來換電,中低端車型採用寧德時代巧克力換電,共同建構從電池研發到回收的閉環體系。李斌還強調,蔚來在充電領域同樣是中國最努力的車企,擁有全國最多的充電樁佈局,不應將充電和換電對立起來。(來源:快科技)中國首個通用人工智慧大型社會模擬器發佈:可精準推演社會運行規律3 月 30 日,據《科技日報》報導,在 2025 中關村論壇年會通用人工智慧論壇上,中國首個通用人工智慧大型社會模擬器正式發佈,意味著交通等相關領域的管理與決策有了預演模型。「大型社會模擬器」是一個社會級智能體學習和實踐的模擬模擬平台,可利用多智能體價值觀建模和數字孿生技術精準推演社會運行規律,模擬不同社會決策的長遠影響,為政府決策提供前瞻性預演。據北京通用人工智慧研究院多智能體實驗室負責人陳爍介紹,大型社會模擬器的長處,是將那些既在情理之中又在意料之外的決策影響提前「捕捉」出來。研發團隊採集大量脫敏社會運行資料,匯聚人口、企業、經濟發展、交通運行和基礎服務設施等 5 大主題,囊括企業特徵、人口結構、消費行為、社會經濟狀況等 10 余類核心領域以及 170 余項指標。基於這些資料,大型社會模擬器全面建模個體、組織、市場、政府、交通、公共資源六大社會要素,並實現互動演化。(來源:IT之家)古爾曼:蘋果計畫年內推出搭載 M5 晶片的 iPad Pro 和 MacBook Pro3 月 30 日,根據彭博社記者馬克・古爾曼的《Power On》通訊透露,M5 晶片 iPad Pro 已進入最後測試階段,計畫於今年發佈。該款 iPad Pro 將成為首批搭載下一代 M5 晶片的裝置之一。其稱,新版本的 iPad Pro(型號 J817、J818、J820 和 J821)正處於蘋果內部的最終測試階段,預計將在今年下半年開始生產。蘋果公司還已開始開發配備內部數據機晶片的 M6 版本,預計將於 2027 年發佈。根據爆料,MacBook Pro 將在今年晚些時候推出 M5 晶片版本,這一更新預計會與 2024 年發佈的 M4 處理器和 2023 年發佈的 M3 處理器時間相近。與此同時,M5 版 MacBook Air 也在研發中。關於重大的新款 Mac 設計,古爾曼預測 MacBook Pro 將不會在 2026 年前進行改版。(來源:IT之家)科學家可能找到了阻止禿頂的方法3 月 30 日,據外媒報導,研究人員發現,負責頭發生長的毛囊幹細胞 (HFSC) 需要一種起到「保鏢」作用的蛋白質 MCL-1。如果 MCL-1 因為壓力、衰老、抗癌藥物或遺傳等降低水平,HSFC 會逐漸筋疲力盡最終走向死亡,也就不會長出新頭髮了。研究人員通過關閉生成 MCL-1 蛋白質的基因並剔除實驗鼠的現有毛髮演示了其作用。他們發現 HFSC 存活了一段時間,但最終因為觸發壓力訊號 (P53) 而走向死亡。研究報告發表在《Nature Communications》期刊上。最新發現為治療和預防脫髮開闢了新的研究方向。(來源:solidot)馬斯克遭變性兒子狂噴:火星移民是噱頭,特斯拉是「龐氏騙局」3 月 30 日,據外媒報導,埃隆・馬斯克的變性兒子(現為女兒)薇薇安・威爾遜最近在與主播哈桑・皮克時長兩小時的直播中,談到了她童年時期父親的行為、他的火星殖民計畫,甚至還談到了他的遊戲水平。薇薇安說:「我看到他工作的時候,大多數情況下他就是在車裡對員工大喊大叫,而我們在一旁驚恐地看著,他簡直是在聲嘶力竭地叫嚷。」她稱馬斯克是一個「沒有安全感的小丑」和自戀狂,還補充說有些人「活該有冒名頂替者綜合徵(總覺得自己名不副實)」。薇薇安聲稱特斯拉的營運模式就像龐氏騙局,她以該公司「過高的市盈率作為證據」。她說:「查一查市盈率,然後再把特斯拉的股票和其他汽車公司的股票對比一下。它根本不是一家汽車公司,而是一個龐氏騙局。」她還認為馬斯克雄心勃勃的火星殖民計畫不過是一個行銷噱頭。她表示:「大家聽著,這是不會實現的。這就是一個行銷騙局,儘管隨便在Google上一搜就能揭穿它,但不知怎麼的,大家還是都上當了。」薇薇安還毫不留情地批評了馬斯克的遊戲表現。威爾遜說:「他玩得太爛了,簡直爛透了。」她還稱自己的父親「很尷尬」。 (極客公園)